P²-DPO: Calibración de preferencias contra alucinaciones en visión-lenguaje
Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana.
Descubre cómo P²-DPO reduce alucinaciones en modelos de visión-lenguaje mediante calibración de preferencias, superando métodos con retroalimentación humana.